Construction d'attributs pour l'extraction de connaissances à partir de séquences biologiques

نویسندگان

  • Mondher Maddouri
  • Faouzi Mhamdi
چکیده

Résumé. Dans cet article nous étudions un problème de prétraitement de données : la construction d’attributs décrivant des séquences biologiques. Afin d’assurer l’extraction de connaissances à partir de séquences biologiques (ADN, ARN et protéines), tout système de fouille de données (datamining) se confronte à la représentation non habituelle de ce type de données. Une séquence biologique est représentée, en structure primaire, par une chaîne de caractères. La construction d’attributs décrivant les séquences biologiques est une étape de prétraitement inévitable. Dans cet article, nous étudions les méthodes existantes de construction d’attributs décrivant des séquences biologiques, notamment, celles qui se basent sur les n-grammes, l’arbre de suffixes généralisés et les modèles de Markov cachés. Notre contribution dans cet axe a été la proposition de la méthode des descripteurs discriminants et la présentation d’une étude comparative approfondie de ces méthodes en les appliquant à des problèmes biologiques typiques comme la reconnaissance de sites promoteurs des gènes de E. Coli, la reconnaissance de sites de jonction de Primate et la classification des protéines. Une confrontation des résultats de chaque méthode avec la banque de motifs Pfam sera aussi présentée.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

L'analyse formelle de concepts pour l'extraction de connaissances dans les données d'expression de gènes

Résumé. L’analyse formelle de concepts (AFC, Ganter et Wille (1999)) est une méthode pertinente d’extraction de connaissances à partir de données complexes d’expression de gènes (Blachon et al. (2007), Motameny et al. (2008)). Dans ce papier, nous proposons d’extraire des groupes de gènes partageant un comportement similaire montrant des changements “significatifs” à travers divers environnemen...

متن کامل

Traitement et exploration du fichier Log du Serveur Web pour l'extraction des connaissances : Web Usage Mining

Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l’ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s’agit en faite, d’extraire de l’information à p...

متن کامل

L'analyse relationnelle de concepts pour la fouille de données temporelles - Application à l'étude de données hydroécologiques

Résumé. Cet article présente une méthode d’exploration de données temporelles, fondée sur l’analyse relationnelle de concepts (ARC) et appliquée à des données séquentielles construites à partir d’échantillons physico-chimiques et biologiques prélevés dans des cours d’eau. Notre but est de mettre au jour des sous-séquences pertinentes et hiérarchisées, associant les deux types de paramètres. Pou...

متن کامل

Apprentissage artificiel : acquis, limites et enjeux

L’apprentissage artificiel est une activité circulaire, extrayant des connaissances à partir des observations disponibles et utilisant ces connaissances pour chercher de nouvelles informations, ou décrire différemment les observations. Dans cet article de synthèse, nous nous intéressons essentiellement à la construction de connaissances, règles ou modèles, à partir de données. Les acquis majeur...

متن کامل

Extension des bases de données inductives pour la découverte de chroniques

Résumé. Les bases de données inductives intègrent le processus de fouille de données dans une base de données qui contient à la fois les données et les connaissances induites. Nous nous proposons d’étendre les données traitées afin de permettre l’extraction de motifs temporels fréquents et non fréquents à partir d’un ensemble de séquences d’évènements. Les motifs temporels visés sont des chroni...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006